Flamingo ist ein visuelles Sprachmodell von DeepMind. Es versteht Beziehungen zwischen visuellen Inhalten und ihren textuellen Beschreibungen. Das Modell besitzt Few-Shot-Lernfähigkeiten und führt Aufgaben aus, ohne vorher dafür mit passendem Bildmaterial ausgiebig trainiert worden zu sein.
Flamingo ist der Name eines von Google DeepMind entwickelten KI-Modells. Es besitzt multimodale Fähigkeiten und gehört der Kategorie der visuellen Sprachmodelle an, die Bild- und Texterkennung kombinieren. Die englische Übersetzung für visuelles Sprachmodell lautet Visual Language Model, weshalb die Abkürzung VLM für diese Art von KI-Modelle verwendet wird.
Erstmals vorgestellt wurde Flamingo im Jahr 2022 in der Veröffentlichung mit dem Titel „Flamingo: a Visual Language Model for Few-Shot Learning“. Wie dem Titel zu entnehmen ist, hat Flamingo Few-Shot-Lernfähigkeiten. Es versteht Beziehungen zwischen visuellen Inhalten (Bilder oder Videos) und ihren textuellen Beschreibungen und ist in der Lage, visuelle Inhalte genau zu beschreiben oder Fragen zu ihnen zu beantworten, ohne mit aufgabenspezifischem Material speziell dafür ausgiebig trainiert worden zu sein. Ein paar wenige Beispielaufgaben genügen. Die multimodalen Few-Shot-Fähigkeiten sind vergleichbar mit den Few-Shot-Lernfähigkeiten der großen Sprachmodelle (Large Language Models – LLM) im Textbereich.
Flamingo besitzt circa 80 Milliarden Parameter und kombiniert ein separat vortrainiertes visuelles KI-Modell mit einem vortrainierten Sprachmodell. In Benchmarks für kombinierte visuelle Sprachaufgaben übertrifft Flamingo die Few-Shot-Lernfähigkeiten anderer VLM deutlich. Die Entwickler sehen in Flamingo einen wichtigen Schritt zu einer allgemeinen visuellen Künstlichen Intelligenz. Flamingo steht nicht frei unter Open-Source-Lizenz zur Verfügung. Es gibt allerdings einige ähnliche frei verfügbare Open-Source-Implementierungen von Flamingo wie OpenFlamingo oder IDEFICS (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS).
Motivation für die Entwicklung von Flamingo
Menschen erfassen und verstehen die Welt und ihre Zusammenhänge multimodal. Damit auch eine Künstliche Intelligenz ähnliche Fähigkeiten wie der Mensch entwickelt, ist es notwendig, dass sie ebenfalls multimodale Informationen erfassen und verarbeiten kann. Ein weiteres Merkmal von menschlicher Intelligenz ist, dass nur wenige Beispiele oder Anweisungen genügen, um die Erledigung neuer Aufgaben zu erlernen oder neue Problemstellungen zu lösen. Auch diese sogenannten Few-Shot-Lernfähigkeiten benötigt eine Künstliche Intelligenz. Im Bereich von großen Sprachmodellen ist es bereits gelungen, KI-Modelle mit relativ guten Few-Shot-Lernfähigkeiten zu realisieren. Mit vielen Daten vortrainierte LLMs, wie die der GPT-Familie, lernen schon mit wenigen Beispielen, bestimmte Aufgaben zu erfüllen. Bei visuellen KI-Modellen waren diese Fähigkeiten bisher nur schwach entwickelt.
Visuelle Modelle werden wie große Sprachmodelle mit riesigen Mengen an Daten vortrainiert. Um sie für eine bestimmte bisher noch nicht erlernte Aufgabe feinabzustimmen, sind zusätzlich relativ große Mengen an gelabeltem Trainingsmaterial mit Tausenden von Bildern notwendig. Diese Feinjustierung für eine neue Aufgabe ist zeitaufwendig und ressourcenintensiv. Motivation für die Entwicklung von Flamingo war es, Modelle und Methoden zu finden und zu entwickeln, einem multimodalen visuellen Sprachmodell Few-Shot-Lernfähigkeiten zu vermitteln. Schon mit einigen aufgabenspezifischen Informationen soll das VLM neue Aufgabenstellungen lösen können. Ähnlich wie bei einem Sprachmodell, dem man eine neue Aufgabe Prompt-basiert mit ein paar Beispielen erläutern kann, kann Flamingo über kombinierte visuelle und textuelle Prompts die Erledigung neuer Aufgaben mit wenigen zusätzlichen Informationen beigebracht werden.
Die Fähigkeiten von Flamingo
Flamingo verbindet ein visuelles KI-Modell mit einem großen Sprachmodell und erhält dadurch ein besseres visuelles Verständnis. Es nimmt multimodale Informationen in Form von visuellen Informationen als Bilder oder Frame-Sequenzen, kombiniert mit Text, entgegen, kann Bilder analysieren und Inhalte in Form von Text präzise beschreiben.
Zu den Fähigkeiten von Flamingo zählen:
nimmt multimodale Informationen (Bilder und Text) entgegen und generiert Antworten oder Beschreibungen in ähnlicher Qualität wie ein großes Sprachmodell
entwickelt ein Verständnis für die Bildinhalte
analysiert und beschreibt Bildinhalte präzise
kann sich dialogorientiert über Bildinhalte mit dem Anwender austauschen und Fragen zu den Bildern beantworten
lernt neue Aufgaben auszuführen mit nur wenigen aufgabenspezifischen Beispielen und ohne aufwendiges Training (visuelle Few-Shot-Lernfähigkeit)
kann auch Videos als Eingabe verarbeiten (in Form von Frame-Sequenzen) und liefert beispielsweise genaue und informative Beschreibungen der Videoinhalte
Funktionsweise und Training von Flamingo
Flamingo nimmt Eingaben in Form von visuellen Inhalten zusammen mit Text entgegen und generiert Text als Ausgabe. Hierfür kombiniert es das große Sprachmodell Chinchilla und ein visuelles Modell. Chinchilla mit seinen 70 Milliarden Parametern ist separat vortrainiert und in seinem trainierten Zustand eingefroren, um die Fähigkeiten zu erhalten. Auch das visuelle Modell ist im vortrainierten Zustand eingefroren und behält dadurch seine Fähigkeiten. Es kann in diesem Zustand semantische Merkmale aus Bildern in Form von visuellen Token extrahieren.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Das Sprachmodell verleiht Flamingo die starken generativen Sprachfähigkeiten und stellt Wissen in Form der Gewichtungen des Modells zur Verfügung. Beide Modelle sind über eine lernfähige Architektur miteinander verbunden. Mithilfe der visuellen Token lässt sich das Sprachmodell über spezielle Cross-Attention-Layer konditionieren. Hierfür wurde das kombinierte Modell Flamingo mit einer großen Menge an multimodalen, nicht gelabelten Bild- und Textdaten aus dem Web auf ein VLM mit insgesamt 80 Milliarden Parametern trainiert. Die einzelnen Modelle blieben bei diesem Training eingefroren und es wurde quasi nur die verknüpfende lernfähige Architektur trainiert.